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摘要 : 
准 文献 知识 服务 系统 能 够 对 标准 文献 中 的 知识 单元 进行 语 
组 织 , 并 为 用 户 提 供 面 向 知识 层次 的 标准 文献 信息 服务 。[ 
技术 实现 标准 文献 的 语义 组 织 、 
知识 服务 系统 ， 能够 获得 面向 知识 层次 的 标准 文献 信息 服 


[ 目的 ] 建设 面向 知识 层次 的 标准 文献 服务 系统 ,推进 标准 文献 信息 服务 的 知识 化 进程 。[ 应 用 
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背景 ] 标 
义 抽取 , 依据 标准 文献 知识 之 间 的 关联 关系 进行 有 效 


方法 ] 采用 光 符 识别 、 自 然 语 言 处 理 、 信 息 可 视 化 等 


知识 抽取 、 本 体 构 建 、 知 识 图 谱 、 本 体检 索 等 功能 。[ 结果 】 用 户 利用 标准 文献 


务 , 包括 标准 知识 图 谱 和 基于 本 体 的 标准 知识 检索 服 


务 。[ 结论 】 标 准 文献 知识 服务 系统 能 够 改善 用 户 体验 , 满足 用 户 的 标准 文献 知识 需求 。 


关键 词 : 标准 文献 ”知识 服务 ”知识 组 织 
分 类 号 : G350 
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信息 技术 的 发 展 改变 了 社会 信息 的 传播 方式 ,这 
种 变化 对 情报 学 研究 内 容 、 方 法 乃至 于 对 象 提出 了 新 
的 要 求 。 从 信息 的 具体 呈现 形式 看 , 多样 化 的 数字 信 
息 资 源 丰 富 了 情报 学 的 研究 对 象 , 情报 研究 不 再 局 限 
于 学 术 文献 , 网 页 、 图 书 、 专 利 、 档 案 、 标 准 文献 等 
信息 载体 都 开始 为 情报 研究 者 所 关注 I， 从 信息 链 四 
或 情报 学 基本 概念 外 的 角度 思考 ,情报 学 研究 的 对 象 
从 信息 层次 向 知识 层次 深入 , 如 何 实现 对 各 种 信息 载 
体 中 知识 的 有 序 组 织 , 并 提供 有 效 的 知识 服务 成 为 情 
报 学 研究 的 重要 前 沿 。 

标准 文献 作为 一 种 重要 的 信息 来 源 和 知识 载体 ， 
其 在 数字 网 络 环境 下 的 生产 、 组 织 、 利 用 也 面临 着 向 
知识 服务 方向 发 展 的 问题 由 。 然 而 当前 的 标准 文献 服 


m} 


层次 的 标准 文献 信息 服务 系统 ,为 用 户 提供 诸如 知识 
抽取 、 知 识 图 谱 、 知 识 搜索 等 标准 知识 服务 ,在 一 定 
程度 上 提高 了 标准 文献 信息 服务 的 质量 , 改善 了 7 用户 
体验 。 


2 现状 分 析 


1984 年 ， 吉 锁 鸿 瑟 -指出 标准 情报 资料 的 “ 反 求 
工程 ”是 提高 我 国产 品质 量 和 国际 竞争 力 的 重要 手段 ， 
并 提出 了 用 情报 收集 、 整 理 、 编 目 和 利用 的 思想 为 国 
家 .企业 、 社 会 提供 标准 情报 服务 。20 世纪 90 年 代 , 楼 
青 " ”站 、 孙 秉 秀 中 都 从 标准 情报 资料 的 管理 和 咨询 服 
务 方面 , 讨论 了 如 何 优 化 标准 文献 服务 工作 。 由 此 看 
来 , 很 早 以 前 标准 文献 服务 就 已 经 是 图 书 情报 学 界 关 
注 的 研究 问题 之 一 。2000 年 后 ， 随 着 计算 机 技术 的 普 
K, 国内 图 书 情报 学 界 开始 对 标准 文献 的 检索 服务 进 


务 系统 多 处 于 文献 粒度 0 无 法 满足 用 户 的 知识 需 
求 。 基 于 上 述 思考 , 本 文 结合 光 符 识别 、 自 然 语言 处 


理 、 信 息 可 视 化 、 信 息 检索 等 技术 , 构建 了 面向 知识 
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行 了 相关 探讨 。 夏 巨 岗 等 站、 邓 要 武 中 先后 对 国内 外 
标准 文献 信息 资源 的 建设 及 国内 外 标准 文献 检索 和 服 
务 平台 进行 了 系统 调研 和 比较 , 结果 显示 当时 国内 外 
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标准 文献 检索 服务 都 存在 检索 字段 较 少 , 文献 加 工 粒 
度 较 粗 ， 无 法 揭示 标准 文献 之 间 的 关联 等 缺陷 , 标准 
文献 服务 系统 研究 进入 瓶颈 期 。2011 年 , 刘 佳 等 对 
国际 标准 化 组 织 4SO)、 国际 电工 委员 会 IEC)、 国际 电 
信和 联盟 (ITU)、 欧 洲 标 准 化 委员 会 (CEN) 等 4 个 标准 检 
索 文献 平台 进行 详细 调研 , 结果 显示 当前 的 国际 标准 
文献 检索 服务 系统 主要 包括 “标准 编号 "标准 名 称 ”、 
“摘要 ”、“ 主 题词 "、‘“ICS 号 ”、“ 时 间 范 围 ”““ 标 准 状 
态 ” 等 检索 字段 , 说 明 标 准 文献 服务 系统 建设 还 处 于 
“基于 关键 字 的 检索 ”阶段 ,没有 能 够 深入 标准 文献 内 
部 的 知识 单元 , 也 不 能 够 为 用 户 提 供 面 向 知识 层次 的 
标准 文献 服务 。 

21 世纪 ,语义 技术 的 发 展 为 信息 加 工 和 信息 服务 
领域 带 来 新 的 变革 。2001 4E, Berners-Lee 和 Hendlerb9 
出 语义 技术 将 改变 知识 的 生产 和 分 享 模 式 ， 拉 开 了 
基于 语义 技术 和 本 体 的 知识 服务 研究 序幕 。 如 Alani 
等 ("提出 了 一 种 基于 本 体 的 、 自 动 的 知识 抽取 方法 ， 
并 将 其 用 于 网 页 知识 的 抽取 和 标注 , 推动 了 网 页 知识 
服务 的 发 展 。Ghoula 等 中 则 利用 知识 本 体 对 专利 文献 
信息 进行 语义 标注 ,并 基于 结构 化 的 专利 语义 文档 构 
建 了 专利 知识 检索 和 挖掘 系统 。Muller 等 ("针对 生物 
医学 学 术 文献 , 构建 了 包含 33 类 术语 的 医学 知识 本 
M, 并 利用 知识 本 体 中 术语 之 间 的 关系 构建 语义 查询 ， 
实现 了 基于 本 体 的 生物 医学 文献 知识 检索 。 此 外 越 来 
越 多 的 出 版 商 开 始 借助 XML 语言 组 织 文档 , 利用 丰富 
的 语义 标签 对 科学 文献 进行 语义 增强 和 知识 组 织 P2， 
为 科学 文献 知识 服务 提供 了 胃 新 思路 。 这 些 研究 都 利 
用 了 语义 化 技术 和 本 体 作为 领域 知识 组 织 的 媒介 和 桥 
Wh 一 定 程 度 上 反映 了 学 界 对 知识 服务 技术 手段 和 实 
现 途 径 的 共识 。 本 体 和 语义 技术 在 众多 领域 内 的 成 功 
应 用 , 给 国内 标准 文献 的 知识 加 工 和 知识 服务 研究 带 
来 了 启示 。 计 雄 飞 等 外 对 国内 外 标准 文献 专题 研究 的 
问题 进行 分 析 , 指出 开展 多 种 服务 方式 、 集 成 大 量 信 
息 、 进 行 深层 次 知识 组 织 和 挖掘 的 标准 文献 服务 的 必 
要 性 , 同时 提出 了 利用 数据 语义 深加工 和 主题 词 表 等 
手段 开展 标准 文献 知识 服务 的 前 瞻 意 见 。 李 景 等 中 | 尝 
试 以 人 工 语 料 编辑 的 形式 (概念 词汇 及 其 关系 ), 通过 
构建 标准 文献 语料库 的 原型 系统 , 实现 了 标准 文献 的 
分 专业 领域 浏览 、 双 语 模糊 检索 、 词 汇 语义 拓展 检索 
等 功能 , 然而 这 种 基于 人 工 语 料 编辑 的 知识 服务 系统 
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要 求 大 量 的 人 工 成 本 , 较 弱 的 自动 化 程度 阻碍 了 该 系 
统 的 有 效应 用 。 

总 的 来 说 ， 当 前 的 标准 文献 服务 系统 还 停留 在 基 
于 关键 字 的 文献 检索 层次 , 标准 文献 的 加 工 粒 度 较 粗 ， 
未 能 深入 到 标准 文献 内 部 的 语义 知识 单元 , 忽视 了 标 
准 文献 知识 单元 之 间 的 关联 关系 ,因此 吸 需 对 标准 文 
献 内 容 进行 语义 组 织 和 知识 抽取 ， 从 文献 服务 系统 向 
知识 服务 系统 转变 。 

3 系统 设计 

3.1 ”问题 与 思路 

通过 文献 调研 和 实践 调查 , 笔者 发 现 构 建 面 向 知 
识 层 次 的 标准 文献 知识 服务 系统 主要 面临 以 下 问题 : 

(1) 语义 数据 缺失 。 由 于 标准 文献 的 版 权 问题 导 
致 了 标准 文献 机 器 可 读 全 文 数据 获取 困难 鸣 ， 当 前 大 
多 数 标准 文献 以 PDF 图 像 扫 描 件 的 形式 存储 ,导致 了 
计算 机 难以 直接 读 取 标 准 文献 内 容 信 息 。 因 此 ， 多数 
系统 通过 光 符 识别 技术 对 标准 文献 进行 转化 处 理 , 获 
取 相 应 纯 文 本 数据 。 然 而 ， 纯 文本 数据 在 解决 内 容 读 
取 问 题 的 同时 , 也 导致 了 原始 文本 的 结构 信息 丢失 ， 
不 利于 标准 文献 的 语义 加 工 以 及 语义 知识 组 织 。 

(2) 领域 本 体 复杂 ， 人 工 构 建 困 难 。 由 于 标准 文献 
TEE s A n] e My role, 涉及 众多 学 科 知 识 内容 , 本 体内 
容 较为 复杂 , 难以 构建 一 个 通用 的 知识 本 体 , 并 且 人 
工本 体 构建 的 方式 需要 消耗 大 量 的 人 力 成 本 。 

鉴于 以 上 问题 , 笔者 认为 构建 标准 文献 知识 服务 
系统 的 核心 任务 主要 有 “标准 文献 数据 的 语义 再 结构 
化 "、“ 标 准 领 域 知识 本 体 的 自动 构建 "。 其 实现 的 具体 
思路 如 下 : 

(D) 语义 组 织 : 通过 图 像 处 理 和 语义 抽取 模块 对 
标准 文献 (PDF 或 图 像 格 式 ) 进 行 语义 结构 重 构 , 将 其 
转化 为 具有 丰富 语义 结构 信息 的 XML 文 件 。 

(2) 知识 抽取 : 利用 自然 语言 处 理 技术 抽取 标准 
文献 XML 文件 中 的 重要 概念 。 鉴 于 标准 文献 的 内 容 往 
往 是 对 标准 化 对 象 的 强制 性 要 求 或 指导 性 建议 ,标准 
文献 的 知识 关联 往往 以 标准 化 对 象 为 线索 , 因此 系统 
主要 抽取 代表 标准 化 对 象 的 概念 词汇 。 

(3) 本 体 构 建 : 通过 外 部 资源 (标准 术语 文件 、 网 
络 百科 等 ) 抽 取 与 标准 化 对 象 相关 的 语义 文本 描述 ， 
利用 语义 处 理 技术 抽取 相关 实体 概念 , 初步 自动 构 
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建 标准 实体 之 间 相 互 关 系 。 并 提供 一 个 人 工 辅助 编辑 
的 接口 ， 允 许 专家 对 自动 生成 的 标准 知识 本 体 进 行 
人 工 矫正 。 

(4) 知识 图 谱 和 本 体检 索 : 在 语义 组 织 和 本 体 构 
建 的 基础 上 , 利用 可 视 化 技术 以 知识 图 谱 的 形式 展示 


标准 知识 联系 , 且 通 过 标准 知识 本 体 中 的 概念 关系 对 
基于 关键 字 的 标准 检索 服务 进行 查询 拓展 。 
3.2 ”系统 软件 架构 

根据 系统 设计 思路 与 SOA 架构 进行 系统 设计 ,本 
系统 软件 架构 主要 分 为 三 个 层次 , 如 图 1 所 示 : 


知识 搜索 知识 本 体 编辑 


信息 服务 模块 


搜索 引擎 
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图 1 


(1) 数据 层 : 用 于 执行 标准 PDF 文件 、 标 准 文献 
XML 文件 及 标准 知识 本 体 数据 库 的 持久 化 操作 。 

Q) 基础 服务 层 : 包括 数据 处 理 与 信息 服务 两 
大 模块 。 数 据 人 处 理 模 块 首先 利用 版 式 分 析 和 正则 匹 
配 技 术 将 标准 PDF 文件 转化 为 具有 语义 结构 的 标准 
文献 XML 文件 ; 其 次 使 用 中 文 分 词 和 实体 识别 技 
术 从 标准 XML 文件 中 抽取 标准 实体 对 象 ， 并 利用 
网 络 爬 虫 技 术 采 集 与 标准 化 对 象 相关 的 文本 摘 述 ， 
最 后 使 用 句法 树 分 析 初 步 自动 构建 标准 实体 之 间 的 
相互 关系 。 同 时 , 信息 服务 模块 利用 信息 可 视 化 技 
术 为 知识 图 谱 提供 技术 支撑 ， 语 义 计 算 、 数 据 索引 、 
搜索 引 敬 和 标准 知识 本 体 库 则 是 知识 搜索 服务 中 的 
基本 单元 。 

(3) 应 用 层 : 包括 数据 管理 .权限 管理 、 知 识 图 谱 、 
知识 搜索 、 知 识 本 体 编辑 等 。 
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数据 处 理 模 块 
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系统 软件 架构 


4 核心 功能 实现 


4.1 标准 文献 数据 的 语义 再 结构 化 

如 前 文 所 述 , 标准 知识 服务 系统 的 核心 步骤 和 功 
能 是 标准 文献 语义 化 处 理 , 即将 原始 的 标准 PDF 文件 
转化 为 具有 语义 结构 信息 的 标准 文献 XML 文件 。 标 
准 文献 的 语义 化 处 理 本 质 是 指 对 数字 标准 文献 进行 语 
义 加 工 ， 使 得 标准 文献 的 内 容 片断 包含 语义 标签 , 将 
标准 文献 中 的 信息 知识 表示 成 计算 机 可 读 、 可 识别 、 
可 处 理 的 形式 ， 从 而 使 得 标准 文献 的 组 织 方式 从 文献 
粒度 的 树 形 分 类 结构 向 知识 粒度 的 网 络 结构 转变 , 其 
直接 的 形式 表现 为 “借助 XML 语言 为 标准 文献 提供 可 
操作 性 原始 数据 ”标准 文献 数据 的 语义 再 结构 化 流程 
如 图 2 所 示 。 
管理 员 用 户 可 通过 网 页 客户 端 界面 上 传 标准 PDF 


标准 文献 上 传 
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文件 
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图 2 标准 文献 数据 的 语义 化 再 结构 化 流程 


文件 数据 , 系统 将 该 PDF 文件 保存 到 服务 器 的 固定 静 
AKIR, 便于 其 他 用 户 访问 。 然 后 系统 将 判断 PDF 文 
件 格 式 ， 对 于 机 器 可 读 的 PDF 文件 , 使 用 PDFBox T. 
具 包 获取 PDF 的 文本 内 容 和 相应 坐标 信息 。 若 PDF 
文件 为 图 片 扫描 件 ， 则 使 用 版 式 分 析 右 对 图 片 进行 结 
构 分 析 , 提取 图 片 中 的 文本 区 块 坐标 , 并 利用 光 符 识 
别 接口 (tesseract”) 识 别 文本 区 块 中 的 文本 内 容 。 版 式 
分 析 的 关键 代码 如 下 所 示 : 

// 版 式 分 析 器 

Void text. detect(Mat& image, vect<Rect>& text. regions, int 


char Space){ 

// 灰 度 化 处 理 

Mat gray image; 

/ 获取 MSER 特征 描述 符 

MSER mserExtractor; 

mserExtractor = MSER::MSER(); 
mserExtractor(blur image, regions, Mat()); 

/ 根据 规则 获取 候选 文字 区 域 
Vector<vector<Point>> canidate regions; 
remove regions by rule(regions, canidate regions); 
// 按 从 上 到 下 从 左 到 右 顺 序 对 区 域 进 行 排序 
sort text rects(mask rects, canidate regions); 


j 
利用 正则 匹配 对 标准 文献 的 通用 要 素 进行 抽取 ， 


Dhttps://pdfbox.apache.org/. 
Qhttps://github.com/tesseract-ocr/tesseract. 
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标准 文献 的 通用 要 素 语义 标签 如 表 1 所 示 : 
表 1 数字 标准 文献 的 语义 标签 列表 


语义 标签 含义 

document number 标准 编号 
document name in chinese 中 文 标题 
document name in english 英文 标题 
date of announcement 实施 日 期 
publish date 发 布 日 期 
Orgnization 发 布 组 织 
cites standard 引用 标准 
Terms 术语 


正则 匹配 的 规则 算法 如 下 所 示 : 
// region (通过 版 式 分 析 器 获取 的 文本 区 块 ) 
// region text (通过 OCR 接口 获取 的 文本 区 块 对 应 的 文本 内 容 
信息 ) 
// page (PDF 文件 的 页 码 信息 ) 
/ StandardCode (中 标 分 类 号 , 如 GB、FZ 等 ) 
For regions in page 1: / 如 果 是 PDF 第 一 页 
// 如 果 文 本 区 块 包含 中 标 分 类 号 和 数字 
Ifregion text startwith StandardCode and contains numbers: 
Label the region with document number // 标记 为 标准 编号 
If characters of region text are all english alphabets: 
Label the region with document name in english 
And Label the previous region with document name in 
chinese 
If region text startwith numbers and contains“ 引 用 文件 ”: 
The next regions may be cites standards 
For region in next regions: 
If text of region startwith StandardCode: 
Label the region with cites standard 


最 终 的 标准 文献 数据 的 语义 再 结构 化 处 理 结果 以 
XML 文件 形式 保存 , 结果 样 例如 图 3 所 示 。 
4.2 标准 领域 知识 本 体 自动 构建 

标准 领域 知识 本 体 自 动 构建 的 实质 是 利用 中 文 分 
词 、 词 性 标注 、 句 法 分 析 、 序 列 标注 等 自然 语言 处 理 
技术 和 概率 模型 对 标准 文献 XML 文件 进行 深度 加 工 
的 过 程 ， 最 终 将 标准 实体 与 实体 关系 构成 的 语义 网 络 
即 标准 知识 本 体 存 入 数据 库 中 。 其 具体 流程 如 图 4 所 
示 。 首先 ， 系统 从 标准 文献 XML 数据 库 中 提取 某 一 标 
准 文 件 的 片段 信息 (如 中 文 标准 名 ); 然后 对 该 片段 进 
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行 中 文 分 词 与 词性 标注 (Stanford Parser”), 并 将 分 词 结 
果 与 词 表 数 据 库 进 行 对 比 ,， 若 分 词 结果 存在 于 现 有 词 
表 中 则 将 实体 存 人 标准 知识 本 体 数 据 库 ， 若 不 在 实体 
词 表 中 则 将 其 标记 为 候选 实体 , 并 存 人 标准 知识 本 体 
数据 库 ; 最 后 ,对 于 确定 的 标准 实体 对 象 ， 利 用 网 络 候 
虫 获取 其 相关 的 解释 性 文本 ,对 该 文本 进行 词性 标注 与 
句法 分 析 , 抽取 其 中 的 名 词 、 动 词 和 句法 结构 用 于 文本 
分 类 和 语义 距离 计算 , 文本 分 类 用 于 确定 两 个 实体 之 间 
的 关系 , 语义 距离 计算 用 于 确定 两 个 实体 词汇 之 间 的 关 
系 权重 , 其 中 文本 分 类 采用 文献 [25] 提 出 的 方法 。 
实体 关系 权重 计算 的 形式 化 过 程 如 下 : 对 于 任意 标 
准 实体 词汇 E, 通过 网 络 息 虫 获取 相关 解释 性 文档 集合 
D={d1,d2,…,do}, d 代表 实体 词汇 E 一 个 解释 性 文档 。 对 
每 个 解释 性 文档 d; 进行 句子 切 分 得 到 S (si$2. sd, s fX 
表 句 子 , t 代 表 句 子 在 文档 中 的 位 置 顺序 。 每 个 句子 sj 可 
通过 分 词 、 词 性 标注 抽取 其 中 所 有 的 名 词 和 动词 
We(wi wa, twi) o URINE wi 在 实体 词汇 表 中 , 则 计算 
实体 词汇 E 与 wi 之 间 的 关系 权重 , 记 为 rel(E,wr)。 该 权 
重 使 用 加 权 共 现 算法 进行 计算 , 具体 算法 如 下 : 
rel(E, w_k)=0 
n-len(D) // 总 文档 数 
for d in D: 
co-occurrence =0 // 共 现 次 数 
S- get sentence(d) // 文 档 d 句子 切 分 
m=len(S) /文档 d 句子 的 个 数 
for s in S: 
t /句子 s 在 文档 中 的 位 置 
W=pos_cut(s) /分 词 和 词性 标注 
W =remove(s) /去 除非 名 词 和 动词 
ifw kin W andE in w k: 
co-occurrence += 1 // 共 现 次 数 +1 
elif w_k in W andEnotinw k: 
co-occurrence += 1/sqrt(t) 
// 共 现 次 数 加 位 置 t 的 平方 根 的 倒数 
rel(E, w k) += co-occurrence/m /每 个 文档 关系 权重 累加 
rel(E, w k) = rel(E, w k)/n // 归 一 化 


5 系统 应 用 与 评价 

依据 图 1 的 软件 架构 对 系统 进行 开发 ， 主 要 向 用 
户 提供 标准 知识 岁 谱 服务 .基于 本 体 的 标准 检索 服务 。 
系统 以 B/S 架构 设计 , 基础 服务 模块 以 后 台 服 务 的 方 
式 在 服务 器 上 运行 , 前 台 为 用 户 提 供 交 互 界 面 。 通 过 


Dhttp://nlp.stanford.edu/software/lex-parser.shtml. 
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与 标准 文献 机 构 的 合作 , 获取 了 包括 国家 标准 、 行 业 
标准 在 内 的 标准 PDF 文件 共 2 268 篇 , 运用 本 系统 对 
这 些 标 准 文献 进行 语义 再 结构 化 。 

(1) 标准 文献 知识 图 谱 服 务 

标准 文献 知识 图 谱 服务 是 从 不 同 的 信息 粒度 上 解 
释 标准 对 象 之 间 的 关系 , 用 可 视 化 技术 对 这 些 关 系 进 
行 展示 ,辅助 用 户 理解 和 利用 标准 文献 知识 。 实 际 应 
用 中 , 系统 主要 从 文献 和 实体 两 个 粒度 上 对 标准 文献 
知识 进行 可 视 化 展示 。 在 标准 文献 粒度 层次 上 , 标准 
文献 之 间 主 要 存在 着 引用 和 替代 两 种 关系 , 这 种 关系 
一 定 程度 上 揭示 了 标准 知识 的 更 替 ，, 是 标准 知识 利用 
的 重要 参考 依据 。 图 5(a) 是 标准 文献 粒度 上 知识 关系 
的 可 视 化 图 谱 ， 用户 通过 查询 某 一 标准 产品 对 象 ( 图 
5(a) 中 以 “棉纺 ”为 查询 词 )， 系统 为 用 户 返 回 主题 词 相 
关 的 标准 文献 ,并 提供 标准 文献 之 间 的 引用 替代 关 
系 。 在 标准 实体 粒度 层次 上 , 系统 主要 展示 标准 实体 
之 间 的 联系 , 图 5(b) 是 标准 实体 “ 喷 胶 棉 架 片 ” 的 知识 
可 视 化 展示 , 用 户 可 清晰 地 查看 与 “ 喷 胶 棉 毗 片 ”" 相 关 
的 实体 概念 。 


图 $ 标准 文献 知识 图 谱 服 务 界 面 
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Q) 基于 本 体 的 标准 检索 服务 

目前 ， 基 于 关键 字 的 标准 检索 服务 没有 考虑 到 标 
准 知识 之 间 的 内 在 联系 ,如 图 6(a9) 是 以 *“ 喷 胶 棉 系 片 ” 
为 检索 词 在 国家 标准 文献 共享 服务 平台 "查询 到 的 标 
准 文献 结果 列表 ,该 结果 仪 返回 了 包含 查询 关键 字 的 
标准 文件 ， 然 而 根据 标准 实体 “ 喷 胶 棉絮 片 ” 的 知识 可 
视 化 结果 可 知 (图 5(b)),“ 哎 胺 杨 祭 片 ”的 生成 过 程 中 涉 
及 到 “涤纶 短 纤维 *"、“ 纤 网 ”等 产品 及 “梳理 机 ”这 一 设 
备 , 与 这 些 实体 相关 的 标准 文献 也 包含 着 用 户 需 要 的 
知识 片段 。 为 解决 这 一 问题 , 本 系统 利用 标准 领域 知 
识 本 体 中 的 概念 关系 , 通过 查询 拓展 的 手段 实现 了 基 
于 本 体 的 标准 检索 服务 , 图 6(b) 是 以 “ 喷 胶 棉 架 片 ”为 
检索 词 在 标准 文献 知识 服务 系统 中 查询 到 的 文献 列 
表 。 可 以 发 现 , 本 文 构建 的 标准 知识 服务 系统 能 够 准 
确 返 回 包含 “ 喷 胶 棉絮 片 ” 相 关 标 准 实体 的 标准 文献 ， 
满足 了 用 户 实际 生产 中 的 标准 知识 需求 。 
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(b) 
图 6 基于 本 体 的 标准 检索 服务 


知识 组 织 与 知识 服务 的 理念 已 经 渗透 进 标准 文献 
信息 服务 领域 , 面向 知识 层次 的 标准 文献 服务 系统 是 


Dhttp://www.cssn.net.cn/. 
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标准 文献 信息 服务 领域 的 发 展 方向 。 国 内 很 多 图 情 研 
究 者 从 理论 上 论证 了 标准 知识 服务 的 重要 性 ， 然 而 关 
于 标准 文献 知识 服务 系统 构建 的 探讨 还 比较 少 。 本 文 
从 应 用 角度 出 发 设计 了 一 种 面向 知识 层次 的 标准 文献 
服务 系统 ,并 采用 光 符 识别 、 自 然 语言 处 理 、 信 息 可 
视 化 等 技术 实现 标准 文献 的 语义 结构 化 组 织 、 本 体 自 
动 构 建 等 功能 , 为 用 户 提 供 了 本 体检 索 、 知 识 图 谱 等 
知识 服务 。 当 然 , 该 系统 的 设计 只 是 对 标准 文献 知识 
服务 系统 研究 的 初步 探讨 ,在 未 来 的 研究 中 还 需 进 
一 步 对 标准 文献 的 知识 结构 、 知 识 组 织 形式 、 知 识 服 
务 方式 进行 更 深入 的 研究 , 改善 用 户 界 面 , 提升 用 户 
体验 。 
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Building Standard Literature Knowledge Service System 


Ding Heng^?^ Lu Wei? 
'(Collaborative Innovation Center for Territorial Sovereignty and Maritime Rights, Wuhan 430072, China) 
"(School of Information Management, Wuhan University, Wuhan 430072, China) 


Abstract: [Objective] This sutdy builds a knowledge-oriented standard literature service system, which could generate 
more knowledge for the users. [Context] The proposed system 1s able to extract semantic knowledge unit from the 
standard literature, to organize information based on the knowledge relationship, and to provide standard knowledge 
service to users. [Methods] We used the technology of optical character recognition, natural language processing, 
information visualization to finish the tasks of semantic organization, knowledge extraction, Ontology construction, 
knowledge map and Ontology-based retrieval of standard literature. [Results] The users enjoyed knowledge-oriented 
standard literature information service, including standard knowledge map and Ontology-based retrieval. [Conclusions] 
The proposed system improves user experience and meet their knowledge demands. 
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